查看原文
其他

数据要素再认识

中国信通院 CAICT数据要素
2024-09-16

数据的爆发式增长和规模化应用不断催生新产业、新业态,对生产力和生产关系的发展和变革具有重要影响。将数据增列为生产要素意味着对数据要素价值释放提出更高目标,需要通过深度研究、广泛实践,反复认知和领会数据要素战略布局、时代背景与理论内涵,不断推进数据要素发展,有力支撑数字中国建设。



(一) 国家战略全方位布局数据要素发展



我国数据要素政策进入体系化构建阶段。自2014年大数据首次写入政府工作报告以来,在关于数据的系列政策布局推动下,数据与实体经济融合程度不断加深,数据技术、数据产业、数据应用、数据安全等方面都取得长足发展。2019年,十九届四中全会首次将数据增列为生产要素,关于数据资源整合共享、开发利用、安全治理、市场化配置等方面的数据要素体系化顶层设计正式启动。四年来,《关于构建更加完善的数据要素市场化配置体制机制的意见》《“十四五”数字经济发展规划》《关于构建数据基础制度更好发挥数据要素作用的意见》《数字中国建设整体布局规划》等文件相继出台,数据要素政策体系架构初步形成,擘画出数据资源大循环、数据要素价值充分实现、全体人民共享数字经济发展红利的宏伟蓝图。


“数据二十条”为推动数据要素发展筑牢政策基础。习近平总书记指出,数据基础制度建设事关国家发展和安全大局,要维护国家数据安全,保护个人信息和商业秘密,促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系。2022年12月,“数据二十条”的出台明确了数据基础制度体系基本架构(如图1),提出建立保障权益、合规使用的数据产权制度,建立合规高效、场内外结合的数据要素流通和交易制度,建立体现效率、促进公平的数据要素收益分配制度,建立安全可控、弹性包容的数据要素治理制度。以“数据二十条”为指导,各地各部门将制定数据要素相关细则规定,围绕“数据二十条”不断丰富完善数据要素各方面制度体系和配套政策,打造“1+N”数据基础制度体系。

来源:国家发展和改革委员会

图 1 数据基础制度体系


数字中国建设引领数据要素价值释放方向。建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。2023年2月,《数字中国建设整体布局规划》指出,畅通数据资源大循环是数字中国建设的两大基础之一,要构建国家数据管理体制机制,健全各级数据统筹管理机构,推动公共数据汇聚利用,释放商业数据价值潜能。规划提出的“五位一体”总体布局为数据要素价值释放指引了方向,数字技术与经济、政治、文化、社会、生态文明建设的深度融合将带动数据要素在各场景发挥独特作用,从而充分激活数据要素内在价值,全面赋能经济社会发展。


数据要素统筹管理、协调发展的体制机制进一步完善。2022年7月,国务院批准建立由国家发展改革委牵头,中央网信办、工业和信息化部等20个部委组成的数字经济发展部际联席会议制度,强化国家层面数字经济战略实施的统筹协调。2023年3月,《党和国家机构改革方案》提出组建国家数据局,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等工作。国家数据局的组建有利于破除“九龙治水”的数据治理环境,平衡数据要素安全和发展的辩证关系,从而进一步推动数据要素的开发利用,推进多层次数据要素市场建设,促进数据要素、数字经济与实体经济的深度融合。


(二) 人工智能发展对数据供给提出更高要求



2023年,以ChatGPT等为代表的AIGC技术应用火遍全球,大模型技术取得的突破使人工智能技术发生了深刻的变革,而这个突破离不开高质量数据的发展。可以说,数据已成为未来人工智能竞争的关键要素,人工智能正在从“以模型为中心”加速向“以数据为中心”转变。


人工智能发展驱动数据要素市场需求爆发。伴随着大模型时代的到来,通用人工智能(AGI)产业正迎来爆发期,更加需要大规模、高质量、多样化的数据集提升模型效果和泛化能力。大模型训练使用的数据集规模持续增长,例如根据公开资料显示,2018年GPT-1数据集约4.6GB,2020年GPT-3数据集达到了753GB,而2021年Gopher数据集已达10550GB,2023年GPT-4的数据量更是GPT-3的数十倍以上。 


当前,主流大模型预训练数据主要来源于公开数据集、合作数据分享、大规模网络数据以及通过数据众包方式获取的数据。然而,我国人工智能领域高质量数据集缺乏、数据供给的产业生态不健全、企业数据资源获取成本高等问题依然严峻。一是国内人工智能领域高质量数据集缺乏。虽然我国已有部分中文开源数据集,但在数量上远远少于国际英文公开数据集,在数据质量方面参差不齐、部分内容十分陈旧。由于高质量数据集的缺乏,部分国产大模型采用“英文数据集+翻译软件”的方式生成中文语料库,导致训练结果出现巨大的文化冲突。二是人工智能领域数据供给的产业生态不健全。由于国内数据要素市场发展尚处于初级阶段,数据流通规则和数据供需对接机制未有效建立,目前国内尚未形成高效完整的人工智能数据产品供应链。三是企业数据资源获取成本高。在模型训练过程中,通常80%的工作是数据构建和准备高质量数据,人工智能企业需要花费大量的人力和物力进行数据集采集、清洗和标注,成本极高。同时,人工智能企业通常难以获取行业高质量数据集,常陷入“寻数无门”的困境。


对此,各类主体通过数据要素市场积极应对上述问题。部分地方和行业推出一系列举措加强高质量数据供给,为大模型成长提供充足“养料”。例如,2023年5月印发的《深圳市加快推动人工智能高质量发展高水平应用行动方案(2023—2024年)》提出,“建立多模态公共数据集,打造高质量中文语料数据”。2023年8月,近50家单位成立“开放算料联盟”,围绕高质量中文训练数据和多模态训练数据,协调数据要素、数据治理、训练数据、数据标注等相关标准制定,协助数据交易所增加大模型相关的新品类和新专区。


此外,合成数据也成为模型训练中的重要类型,为数据要素市场带来了新需求。据专家预测,模型训练中必不可少的语言数据将于2030-2040年耗尽,其中能训练出更好性能的高质量语言数据将于2026年耗尽,而视觉数据恐将于2030-2060年耗尽。未来,合成数据将成为模型训练的关键数据。根据Gartner的预测,2024年用于训练大模型的数据中有60%将是合成数据,到 2030年大模型使用的绝大部分数据都将由人工智能合成。这是否会对数据要素市场带来结构性的变化,还有待未来观察。


(三) 数据要素概念聚焦于数据价值释放


数据要素概念的内核是提高生产效率与资源配置效率。生产要素是对某一时期经济发展中所需重要资源的科学抽象,是对生产过程中所投入成本的高度凝练。作为一种理论视角下的概念,从外延角度看,数据要素固然包括根据特定生产需求汇聚、整理、加工而成的计算机数据及其衍生形态,但数据要素这一概念不只是对各行业各领域各类数据的指代,更是对数据所蕴藏巨大价值的强调。数据支撑业务贯通、推动数智决策、流通对外赋能的三次价值是挖掘、释放数据要素价值的主要手段,而激活数据要素的根本目的是将数据以多样、创新的方式投入于经济社会发展全过程,通过数据开发利用增加生产经营活动的投入产出比,促进跨领域活动过程中资源的高效流动,从而全面提高生产效率与资源配置效率。


业界对于数据要素阶段划分有诸多探讨。为推动数据要素价值释放,可将具体过程进行分解。例如,按照供应链可分解为数据供给、数据流通、数据应用、数据安全等阶段;按照数据价值增值的阶段性目标,可分解为数据资源化、数据资产化、数据资本化或产品化等阶段。每个阶段均可进一步细分,例如,不同意义层次上的数据资产概念突出了数据要素价值释放的不同需求:在经济意义上,凡能产生价值的数据资源都可以用数据资产强调,从而提升组织对数据管理、数据应用的重视程度;在会计意义上,参照我国《企业会计准则——基本准则》第二十条“资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源”定义,数据资产需具备组织拥有或控制、能够产生经济利益等性质,这对数据的确权、流通提出了要求;而在资产负债表列报意义上,参照我国《企业会计准则——基本准则》第二十二条“符合资产定义和资产确认条件的项目,应当列入资产负债表;符合资产定义、但不符合资产确认条件的项目,不应当列入资产负债表”要求,数据资产若要入表,还应满足“有关经济利益很可能流入企业”“成本或价值能可靠计量”两大资产确认条件。总之,类似的分解有利于数据要素政策、目标等落地,各阶段的活动职能成为实现数据生产要素价值的必要环节。



本文节选自中国信通院于“2023数据要素发展大会”上发布的《数据要素白皮书(2023年)》。


报告介绍及全文下载链接如下:

中国信通院发布《数据要素白皮书(2023年)》






中国信通院云大所长期深耕数据要素研究工作,深入数据要素理论体系、制度政策、市场培育、技术应用相关话题,持续编写并发布《数据要素白皮书》等研究报告;重点聚焦公共数据、企业数据、个人数据的合规可信流通实践;形成了可信数据流通、可信隐私计算系列评测与咨询服务体系。


联系人:

吕老师 

18526649944

lvailin@caict.ac.cn

王老师

13683085467

wangzeyu1@caict.ac.cn

往期推荐

01

公共数据授权运营八大发展趋势

02

《公共数据授权运营平台功能要求》标准解读

03

《可信数据流通网络(TDN)白皮书(2023年)》发布!附下载链接

继续滑动看下一个
CAICT数据要素
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存